Multi-GPU এবং Distributed Training

Machine Learning - কেরাস (Keras)

232

Multi-GPU এবং Distributed Training হল দুটি শক্তিশালী কৌশল, যা মডেল প্রশিক্ষণের পারফরম্যান্স এবং গতিকে উন্নত করতে ব্যবহৃত হয়, বিশেষ করে যখন আপনার কাছে বড় ডেটাসেট থাকে বা বৃহৎ নিউরাল নেটওয়ার্ক মডেল প্রশিক্ষণ করা হয়। এই কৌশলগুলি একটি একক বা একাধিক কম্পিউটারের মধ্যে GPU গুলি ব্যবহার করে প্রশিক্ষণ প্রক্রিয়া দ্রুততর করতে সাহায্য করে।

১. Multi-GPU Training

Multi-GPU Training হল একটি কৌশল যেখানে একাধিক GPU ব্যবহার করে একই মডেল প্রশিক্ষণ করা হয়। এটি বিশেষভাবে বড় ডেটাসেট এবং বৃহৎ মডেল প্রশিক্ষণের জন্য উপকারী, কারণ এটি প্রশিক্ষণের সময় কমিয়ে আনে এবং কার্যকারিতা বৃদ্ধি করে।

Multi-GPU Training এর মূল ধারণা:

Data Parallelism:
- Multi-GPU প্রশিক্ষণে, ডেটার একটি অংশ প্রতিটি GPU তে পাঠানো হয়। প্রতিটি GPU তাদের নিজস্ব অংশে কম্পিউটেশন করে এবং পরিশেষে সমস্ত GPU এর ফলাফল একত্রিত করা হয়। এটি data parallelism নামে পরিচিত।
- উদাহরণস্বরূপ, যদি আপনি 100,000 ডেটা পয়েন্টের একটি ব্যাচ ব্যবহার করছেন, তবে এই ডেটাটি GPU গুলির মধ্যে ভাগ করা হয় এবং প্রতিটি GPU আলাদাভাবে কম্পিউটেশন করে।
Model Parallelism:
- এখানে, মডেলের বিভিন্ন অংশ একাধিক GPU তে রাখা হয়। এই কৌশলে মডেলটি বড় হতে পারে এবং একাধিক GPU ব্যবহার করে প্রশিক্ষিত হতে পারে।

Keras ও TensorFlow এ Multi-GPU Training:

TensorFlow বা Keras এ MirroredStrategy ব্যবহার করে Multi-GPU প্রশিক্ষণ করা যায়।

import tensorflow as tf

# Multi-GPU Strategy ব্যবহার করা
strategy = tf.distribute.MirroredStrategy()

# Model definition
with strategy.scope():
    model = tf.keras.Sequential([
        tf.keras.layers.Dense(64, activation='relu', input_shape=(8,)),
        tf.keras.layers.Dense(32, activation='relu'),
        tf.keras.layers.Dense(1, activation='sigmoid')
    ])
    model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# Model Training
model.fit(X_train, y_train, epochs=10, batch_size=32)

এই কৌশলে, MirroredStrategy প্রতিটি GPU তে মডেল কপি তৈরি করে এবং প্রশিক্ষণের সময় প্যারামিটারগুলি সিঙ্ক্রোনাইজ করে। এটি ডেটা প্যারালালিজমে কাজ করে, যেখানে সমস্ত GPU গুলি একই মডেল প্রশিক্ষণ করে, এবং পরিশেষে প্যারামিটারগুলি একত্রিত করা হয়।

Multi-GPU Training এর সুবিধা:

দ্রুত প্রশিক্ষণ: একাধিক GPU ব্যবহার করার মাধ্যমে প্রশিক্ষণ সময় উল্লেখযোগ্যভাবে কমে যায়।
বৃহৎ মডেল প্রশিক্ষণ: GPU গুলির সাথে একাধিক মডেল বা বৃহৎ ডেটাসেট প্রশিক্ষিত করা যায়।

২. Distributed Training

Distributed Training হল একটি কৌশল যেখানে একাধিক কম্পিউটার বা সার্ভার ব্যবহার করে প্রশিক্ষণ প্রক্রিয়া বিতরণ করা হয়। এই পদ্ধতিতে, প্রশিক্ষণের কাজ একাধিক নোড (যেমন CPU বা GPU সহ একাধিক মেশিন) মধ্যে ভাগ করা হয় এবং সেগুলি একযোগভাবে কাজ করে।

Distributed Training এর মূল ধারণা:

Data Parallelism:
- Distributed Training এর একটি সাধারণ কৌশল হল data parallelism, যেখানে ডেটার একাধিক ভাগ একাধিক মেশিনে পাঠানো হয়, এবং প্রতিটি মেশিন আলাদাভাবে প্রশিক্ষণ চালায়। শেষে, সমস্ত মেশিনের ফলাফল একত্রিত করা হয়।
Model Parallelism:
- এখানে, মডেলের অংশগুলো বিভিন্ন মেশিনে বিতরণ করা হয়। উদাহরণস্বরূপ, মডেলের একাধিক লেয়ার একাধিক মেশিনে থাকতে পারে, এবং প্রতিটি মেশিনে সেগুলির কাজ আলাদাভাবে সম্পন্ন হয়।

TensorFlow এ Distributed Training:

TensorFlow এর মধ্যে tf.distribute.Strategy ব্যবহার করে Distributed Training করা যেতে পারে। এর মধ্যে সবচেয়ে জনপ্রিয় কৌশল হচ্ছে MultiWorkerMirroredStrategy, যা একাধিক মেশিনে প্রশিক্ষণ চালানোর জন্য ব্যবহৃত হয়।

import tensorflow as tf

# MultiWorkerMirroredStrategy ব্যবহার করা
strategy = tf.distribute.MultiWorkerMirroredStrategy()

# Model definition
with strategy.scope():
    model = tf.keras.Sequential([
        tf.keras.layers.Dense(64, activation='relu', input_shape=(8,)),
        tf.keras.layers.Dense(32, activation='relu'),
        tf.keras.layers.Dense(1, activation='sigmoid')
    ])
    model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# Model Training
model.fit(X_train, y_train, epochs=10, batch_size=32)

MultiWorkerMirroredStrategy মডেলটি একাধিক মেশিনে প্রশিক্ষণ করানোর জন্য ব্যবহৃত হয়, যেখানে প্রতিটি মেশিনে GPU বা CPU থাকে। এই কৌশলটি খুবই উপকারী যখন ডেটাসেট খুব বড় এবং একক মেশিনে তা লোড করা সম্ভব নয়।

Distributed Training এর সুবিধা:

স্কেলেবল: একাধিক মেশিন ব্যবহার করে প্রশিক্ষণ চালানোর ফলে এটি বিশাল ডেটাসেটের জন্য স্কেলেবল হয়ে ওঠে।
বৃহৎ মডেল: একাধিক মেশিন ব্যবহার করার মাধ্যমে বিশাল মডেল প্রশিক্ষিত করা সম্ভব হয়।

৩. Multi-GPU এবং Distributed Training এর মধ্যে পার্থক্য

বিষয়	Multi-GPU	Distributed Training
কোণায় সংখ্যা	একাধিক GPU এক মেশিনে থাকে	একাধিক মেশিনে GPU বা CPU থাকতে পারে
ডেটা/মডেল পারালালিজম	ডেটা পারালালিজম বা মডেল পারালালিজম	মূলত ডেটা পারালালিজম, তবে মডেল পারালালিজমও হতে পারে
কম্পিউটিং রিসোর্স	একাধিক GPU ব্যবহার করে কম্পিউটিং রিসোর্স বৃদ্ধি করা	একাধিক মেশিন বা নোড ব্যবহার করে কম্পিউটিং রিসোর্স বৃদ্ধি
পরিসর	একক মেশিনের মধ্যে GPU গুলি ব্যবহৃত হয়	একাধিক মেশিনের মধ্যে কাজ বিতরণ করা হয়

সারাংশ

Multi-GPU ব্যবহার করে একক মেশিনে একাধিক GPU ব্যবহার করে প্রশিক্ষণ চালানো হয়, যা ডেটা প্যারালালিজমের মাধ্যমে মডেল প্রশিক্ষণের গতি বৃদ্ধি করে।
Distributed Training হল একাধিক মেশিন বা সার্ভার ব্যবহার করে প্রশিক্ষণ চালানো, যেখানে ডেটা এবং মডেল কাজ একাধিক নোডে বিতরণ করা হয়।
TensorFlow এবং Keras এ MirroredStrategy এবং MultiWorkerMirroredStrategy এর মতো কৌশলগুলি ব্যবহার করে সহজেই Multi-GPU এবং Distributed Training করা যায়।

এই কৌশলগুলি বিশেষভাবে বড় ডেটাসেট এবং জটিল মডেল প্রশিক্ষণের জন্য উপকারী, এবং আপনাকে দ্রুত মডেল প্রশিক্ষণ করার সুযোগ দেয়।

Content added By

SATT Academy

Multi-GPU Support কনফিগার করা

201

Multi-GPU সমর্থন ব্যবহারের মাধ্যমে মডেল প্রশিক্ষণ এবং ডীপ লার্নিং কাজের পারফরম্যান্স অনেকটাই বৃদ্ধি পেতে পারে। বিশেষ করে, যখন ডেটাসেট বিশাল এবং মডেল জটিল, তখন একাধিক GPU ব্যবহার করা মডেল প্রশিক্ষণকে অনেক দ্রুততর এবং দক্ষ করে তোলে। TensorFlow এবং Keras এর মাধ্যমে Multi-GPU সমর্থন কনফিগার করা সহজ এবং এটি আপনার সিস্টেমের সমস্ত GPU একসাথে ব্যবহার করতে সহায়তা করে।

Multi-GPU কনফিগারেশন টুল: TensorFlow MirroredStrategy

TensorFlow এ MirroredStrategy হলো Multi-GPU সমর্থনের জন্য ব্যবহৃত সবচেয়ে জনপ্রিয় কনফিগারেশন। এটি সহজেই একাধিক GPU তে সমান্তরালভাবে মডেল প্রশিক্ষণ করতে সক্ষম।

১. MirroredStrategy ব্যবহারের জন্য প্রস্তুতি:

CUDA এবং cuDNN ইনস্টলেশন: আপনার সিস্টেমে CUDA এবং cuDNN ইনস্টল থাকতে হবে, যেগুলি NVIDIA GPU এর জন্য প্রয়োজনীয়। আপনার GPU এর জন্য সঠিক CUDA এবং cuDNN সংস্করণ নির্বাচন করুন।
- CUDA এবং cuDNN ডাউনলোড করতে NVIDIA Developer ওয়েবসাইটে যান।
TensorFlow GPU ইনস্টলেশন: Multi-GPU সমর্থন ব্যবহারের জন্য TensorFlow GPU ইনস্টল করা থাকতে হবে।
- TensorFlow GPU ইনস্টল করতে:
```
pip install tensorflow-gpu
```
GPU যাচাই: আপনার সিস্টেমে GPU সঠিকভাবে কাজ করছে কিনা তা যাচাই করার জন্য, নিম্নলিখিত Python কোডটি চালান:
```
import tensorflow as tf
print("Num GPUs Available: ", len(tf.config.experimental.list_physical_devices('GPU')))
```
এটি আপনার সিস্টেমে উপলব্ধ GPU এর সংখ্যা প্রদর্শন করবে।

২. MirroredStrategy ব্যবহার করে Multi-GPU কনফিগারেশন:

MirroredStrategy ব্যবহারের মাধ্যমে, TensorFlow আপনার সমস্ত GPU তে সমান্তরালভাবে মডেল প্রশিক্ষণ করবে। এটি মডেলের প্যারামিটারগুলির একটি কপি প্রতিটি GPU তে রাখে এবং তাদের মধ্যে আপডেটগুলি সমন্বয় করে।

নিচে MirroredStrategy ব্যবহার করার উদাহরণ দেওয়া হয়েছে:

import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import Adam

# GPU সনাক্তকরণ
strategy = tf.distribute.MirroredStrategy()

print('Number of devices: {}'.format(strategy.num_replicas_in_sync))

# MirroredStrategy এর মধ্যে মডেল তৈরি করা
with strategy.scope():
    model = Sequential([
        Dense(64, activation='relu', input_shape=(784,)),
        Dense(64, activation='relu'),
        Dense(10, activation='softmax')
    ])

    model.compile(loss='sparse_categorical_crossentropy',
                  optimizer=Adam(),
                  metrics=['accuracy'])

# ডেটাসেট লোড করা
(x_train, y_train), (x_test, y_test) = tf.keras.datasets.mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0

# মডেল প্রশিক্ষণ করা
model.fit(x_train, y_train, epochs=5, batch_size=64)

কোডের ব্যাখ্যা:

MirroredStrategy তৈরি করা: tf.distribute.MirroredStrategy() আপনার সিস্টেমে উপলব্ধ সমস্ত GPU গুলিকে সনাক্ত এবং তাদের মধ্যে কাজ ভাগ করে দেয়।
strategy.scope(): মডেল এবং প্রশিক্ষণ কনফিগারেশনগুলো strategy.scope() এর মধ্যে রাখতে হয়, যাতে এটি সমস্ত GPU তে সমান্তরালভাবে কার্যকর হয়।
model.fit(): প্রশিক্ষণের সময় মডেলটি GPU গুলোর মধ্যে সঠিকভাবে সমান্তরালভাবে প্রশিক্ষিত হবে।

৩. Multiple GPUs তে মডেল প্রশিক্ষণ:

এটি তখন কার্যকরী যখন আপনার সিস্টেমে একাধিক GPU রয়েছে এবং আপনি সেগুলি ব্যবহার করে প্রশিক্ষণ করতে চান। এই কনফিগারেশন স্বয়ংক্রিয়ভাবে GPU গুলোর মধ্যে ভারসাম্য তৈরি করে, ফলে প্রশিক্ষণ দ্রুত হয়।

৪. GPU Allocation কনফিগারেশন (Optional):

আপনি মডেল প্রশিক্ষণের জন্য নির্দিষ্ট GPU allocate করতে পারেন, যদি আপনার সিস্টেমে একাধিক GPU থাকে। উদাহরণস্বরূপ, আপনি চাইলে প্রথম GPU অথবা দ্বিতীয় GPU ব্যবহার করতে পারেন:

physical_devices = tf.config.list_physical_devices('GPU')
tf.config.set_visible_devices(physical_devices[0], 'GPU')  # 0 মানে প্রথম GPU, 1 হলে দ্বিতীয় GPU

এটি নির্দিষ্ট GPU তে কাজ করার জন্য TensorFlow কে নির্দেশ দেয়।

৫. কিছু গুরুত্বপূর্ণ বিষয়:

Batch Size: Multi-GPU ব্যবহারের সময় batch size বাড়ানো উচিত, কারণ প্রতিটি GPU নিজের নিজস্ব batch প্রসেস করবে।
Overhead: যখন আপনি একাধিক GPU ব্যবহার করেন, তখন কিছু সমন্বয় এবং প্যারামিটার আপডেটের জন্য অতিরিক্ত সময় এবং মেমরি প্রয়োজন হতে পারে। এটি মডেলের প্রশিক্ষণকে কিছুটা ধীর করতে পারে।
FP16 Training (Mixed Precision): আপনি Mixed Precision Training ব্যবহার করতে পারেন, যাতে মেমরি কম ব্যবহৃত হয় এবং প্রশিক্ষণ দ্রুত হয়। এটি GPU গুলোর কার্যক্ষমতা আরও বাড়ায়।

সারাংশ

Multi-GPU Support কনফিগার করা মডেলের প্রশিক্ষণ প্রক্রিয়াকে দ্রুততর করতে সাহায্য করে, বিশেষ করে বৃহৎ ডেটাসেট এবং জটিল মডেল ট্রেনিংয়ের ক্ষেত্রে। TensorFlow MirroredStrategy সহজেই একাধিক GPU তে মডেল প্রশিক্ষণ করতে সহায়তা করে, এবং এটি আপনার সিস্টেমের সমস্ত GPU গুলোর মধ্যে কাজ ভাগ করে দেয়। CUDA এবং cuDNN ইনস্টল থাকা দরকার, এবং batch size এবং GPU allocation এর মতো কনফিগারেশন গুলি প্রশিক্ষণের সময় সঠিকভাবে সেট করতে হবে।

Content added By

SATT Academy

Data Parallelism এবং Model Parallelism

240

Data Parallelism এবং Model Parallelism হল দুটি গুরুত্বপূর্ণ কৌশল যা ডীপ লার্নিং মডেল ট্রেনিংয়ের জন্য ব্যবহৃত হয়, বিশেষ করে যখন প্রশিক্ষণ বৃহৎ ডেটাসেট এবং মডেলের জন্য করা হয়। এই দুটি কৌশল একই সময়ে একাধিক প্রসেসর বা GPU ব্যবহার করে ট্রেনিং সময় কমানোর জন্য ব্যবহৃত হয়। তারা মডেলের প্রশিক্ষণের প্রক্রিয়ায় পারফরম্যান্স বৃদ্ধি করতে সাহায্য করে।

নিচে Data Parallelism এবং Model Parallelism এর বিস্তারিত আলোচনা করা হলো:

1. Data Parallelism

Data Parallelism হল একটি প্যারালাল কৌশল যেখানে একই মডেলকে একাধিক ডেটা স্যাম্পল (বা ব্যাচ) এর উপরে প্রশিক্ষিত করা হয়। এই কৌশলে প্রশিক্ষণের ডেটাসেটটিকে বিভিন্ন ভাগে বিভক্ত করা হয় এবং প্রতিটি ভাগে একই মডেল আলাদাভাবে প্রশিক্ষিত হয়। এর ফলে, একাধিক GPU বা প্রসেসরের মধ্যে ডেটা ভাগ করা যায় এবং প্রশিক্ষণের সময় উল্লেখযোগ্যভাবে কমানো যায়।

Data Parallelism এর মূল ধারণা:

ডেটা ভাগ করা: প্রশিক্ষণের ডেটাকে একাধিক ব্যাচে ভাগ করা হয়।
মডেল একই থাকে: প্রতিটি GPU বা প্রসেসর একে অপরের সাথে একই মডেল শেয়ার করে এবং নিজস্ব ডেটা ব্যাচে কাজ করে।
গ্রেডিয়েন্ট আপডেট: সমস্ত GPU বা প্রসেসর একটি গ্রেডিয়েন্ট আপডেট সিঙ্ক্রোনাইজ করে এবং সেগুলো একত্রিত করে ফাইনাল মডেল আপডেট করা হয়।

Data Parallelism এর উদাহরণ:

ধরা যাক, আমরা একটি মডেল প্রশিক্ষণ করছি এবং আমাদের ডেটা দুটি ব্যাচে ভাগ করতে হবে:

ব্যাচ 1: GPU 1 ব্যবহার করবে
ব্যাচ 2: GPU 2 ব্যবহার করবে

এবং দুটি GPU মডেল আপডেটের জন্য একই গ্রেডিয়েন্ট শেয়ার করবে।

from tensorflow.keras import models
import tensorflow as tf

# মডেল তৈরি
model = models.Sequential([
    tf.keras.layers.Dense(64, activation='relu', input_shape=(128,)),
    tf.keras.layers.Dense(10, activation='softmax')
])

# Parallel strategy নির্বাচন
strategy = tf.distribute.MirroredStrategy()

with strategy.scope():
    model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
    model.fit(train_data, train_labels, epochs=10, batch_size=32)

এখানে MirroredStrategy ব্যবহার করে একাধিক GPU তে Data Parallelism প্রক্রিয়া করা হয়েছে।

Data Parallelism এর সুবিধা:

স্কেলেবিলিটি: বড় ডেটাসেট দ্রুত প্রশিক্ষিত করা যায়, কারণ ডেটাকে ভাগ করা হয়।
সমান্তরাল প্রসেসিং: একাধিক GPU ব্যবহার করার ফলে প্রশিক্ষণের সময় কমে আসে।
সহজ অ্যাপ্লিকেশন: প্রক্রিয়া সরল এবং এটি সরাসরি ডেটাকে ভাগ করে কাজ করে।

Data Parallelism এর সীমাবদ্ধতা:

কম্পিউটেশনাল ওভারহেড: গ্রেডিয়েন্ট আপডেট এবং সিঙ্ক্রোনাইজেশন সময় নেয়, যা কখনও কখনও সমস্যার সৃষ্টি করতে পারে।
ডেটার ভারসাম্য: ডেটাকে সঠিকভাবে ভাগ না করলে, কোনো একটি GPU বেশি সময় নিতে পারে।

2. Model Parallelism

Model Parallelism হল একটি প্যারালাল কৌশল যেখানে মডেলটি বিভিন্ন অংশে ভাগ করা হয় এবং প্রতিটি অংশ আলাদাভাবে একাধিক GPU বা প্রসেসরে ট্রেন করা হয়। এটি সাধারণত ব্যবহৃত হয় যখন মডেলটির আকার অনেক বড় হয় এবং তা একটি GPU তে ফিট হওয়ার মতো না থাকে।

Model Parallelism এর মূল ধারণা:

মডেল ভাগ করা: মডেলটির বিভিন্ন অংশকে (যেমন লেয়ার বা ব্লক) বিভিন্ন GPU তে ভাগ করা হয়।
কম্পিউটেশন ভাগ করা: প্রতিটি GPU মডেলের এক একটি অংশে কাজ করে এবং এগুলোর ফলাফল একত্রিত হয়ে পুরো মডেলটি প্রশিক্ষিত হয়।
বিভিন্ন লেয়ার এক্সিকিউশন: এক GPU একটি লেয়ার প্রসেস করে, অন্য GPU আরেকটি লেয়ার প্রসেস করে এবং এই প্রক্রিয়ায় কম্পিউটেশন সম্পন্ন হয়।

Model Parallelism এর উদাহরণ:

ধরা যাক, আমাদের কাছে একটি মডেল যা দুটি বড় লেয়ার নিয়ে গঠিত এবং সেগুলো একাধিক GPU তে ভাগ করতে হবে। এক GPU একটি লেয়ার প্রসেস করবে, অন্য GPU আরেকটি লেয়ার প্রসেস করবে।

import tensorflow as tf

# প্রথম GPU এর জন্য প্রথম লেয়ার
with tf.device('/GPU:0'):
    input_layer = tf.keras.layers.Input(shape=(128,))
    x = tf.keras.layers.Dense(64, activation='relu')(input_layer)

# দ্বিতীয় GPU এর জন্য দ্বিতীয় লেয়ার
with tf.device('/GPU:1'):
    output_layer = tf.keras.layers.Dense(10, activation='softmax')(x)

# মডেল তৈরি
model = tf.keras.models.Model(inputs=input_layer, outputs=output_layer)

# মডেল কম্পাইল
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

এখানে Model Parallelism প্রয়োগের মাধ্যমে দুটি GPU তে মডেলের দুটি লেয়ার প্রক্রিয়াকৃত হয়েছে।

Model Parallelism এর সুবিধা:

বড় মডেল প্রশিক্ষণ: মডেল যদি এক GPU তে ফিট না হয় তবে Model Parallelism ব্যবহার করে তাকে একাধিক GPU তে ভাগ করা যায়।
মডেল কাস্টমাইজেশন: মডেলের প্রতিটি অংশকে আলাদা আলাদা GPU তে রেখে তাকে কাস্টমাইজ করা যায়।

Model Parallelism এর সীমাবদ্ধতা:

কম্প্লেক্স কনফিগারেশন: মডেলকে ভাগ করা এবং সঠিকভাবে মডিউল করা অনেক জটিল হতে পারে।
ইনপুট/আউটপুট সিঙ্ক্রোনাইজেশন: GPU গুলোর মধ্যে ডেটা স্থানান্তরের জন্য সিঙ্ক্রোনাইজেশন প্রক্রিয়া বেশি সময় নিতে পারে।
কম্পিউটেশনাল দক্ষতা: মডেল ভাগ করার সময় একটি GPU একাধিক লেয়ার প্রসেস করার জন্য অপেক্ষা করতে পারে, যা কর্মক্ষমতা কমিয়ে দিতে পারে।

Data Parallelism vs Model Parallelism

বৈশিষ্ট্য	Data Parallelism	Model Parallelism
ধরণ	ডেটার ভাগাভাগি	মডেলের ভাগাভাগি
ব্যবহার	ছোট থেকে বড় ডেটাসেটের জন্য উপযুক্ত	বড় মডেল (যেমন, বড় নিউরাল নেটওয়ার্ক) প্রশিক্ষণ করতে উপযুক্ত
গতি	একাধিক GPU তে একে অপরের সঙ্গে ডেটা প্রসেস করা হয়	GPU এর মধ্যে মডেল ভাগ করা হয়, যার ফলে কিছুটা কম গতি হতে পারে
বিভাগের ধরন	ডেটার ব্যাচ ভাগ করা হয়	মডেলের লেয়ার বা ব্লক ভাগ করা হয়
পরিমাণ	বড় ডেটাসেট (কমপ্লেক্স মডেল নয়)	বড় মডেল (কমপ্লেক্স মডেল, যেমন ট্রান্সফরমার বা GAN)
সুবিধা	সহজ ও সরল, দ্রুত মডেল প্রশিক্ষণ	বড় মডেল প্রশিক্ষণের জন্য প্রয়োজনীয়
বিরতি	গ্রেডিয়েন্ট সিঙ্ক্রোনাইজেশন প্রক্রিয়ায় কিছু বিলম্ব হতে পারে	মডেল বিভাজন এবং সিঙ্ক্রোনাইজেশন সময় নেয়

সারাংশ

Data Parallelism: একাধিক GPU তে একই মডেল এবং ডেটা ব্যাচ প্রশিক্ষিত করা হয়, যার ফলে প্রশিক্ষণ সময় কমে আসে এবং বড় ডেটাসেট দ্রুত প্রশিক্ষিত করা যায়।
Model Parallelism: মডেলটির বিভিন্ন অংশ (যেমন লেয়ার) একাধিক GPU তে ভাগ করা হয়, বিশেষ করে যখন মডেলটি খুব বড় এবং এক GPU তে ফিট না হয়।

উপযুক্ত কৌশলটি নির্বাচন করা নির্ভর করে আপনার ডেটাসেট এবং মডেলের আকারের উপর।

Content added By

SATT Academy

Keras তে Multi-node Training কনফিগার করা

246

Multi-node training হল এমন একটি কৌশল, যার মাধ্যমে একাধিক GPU বা machine nodes ব্যবহার করে একটি মডেলকে প্রশিক্ষিত করা হয়। এটি মডেল প্রশিক্ষণের জন্য খুবই কার্যকরী, বিশেষত বড় ডেটাসেট বা জটিল মডেলগুলির ক্ষেত্রে যেখানে একক মেশিন বা GPU দিয়ে প্রশিক্ষণ যথেষ্ট সময়সাপেক্ষ হয়ে যায়। Keras এবং TensorFlow এ multi-node training সহজে কনফিগার করা যেতে পারে।

Keras এ multi-node training করার জন্য মূলত TensorFlow's distributed strategy ব্যবহার করা হয়। TensorFlow বিভিন্ন ধরনের distribution strategies প্রদান করে, যা সহজে কনফিগার করা যায়। এখানে আমরা MirroredStrategy এবং MultiWorkerMirroredStrategy এর ব্যবহার দেখাবো, যা একাধিক GPU এবং মেশিনে প্রশিক্ষণকে সমর্থন করে।

১. MirroredStrategy (Single-node, Multiple GPU)

MirroredStrategy হল TensorFlow এর একটি সহজ কৌশল যা একাধিক GPU এর মধ্যে মডেল প্রশিক্ষণ সমান্তরালভাবে ভাগ করে নেয়। এটি single-node (একটি মেশিনে) একাধিক GPU ব্যবহার করার জন্য উপযুক্ত।

১.১ MirroredStrategy কনফিগার করা

import tensorflow as tf

# MirroredStrategy এর ইনস্ট্যান্স তৈরি করা
strategy = tf.distribute.MirroredStrategy()

print('Number of devices: {}'.format(strategy.num_replicas_in_sync))

# মডেল তৈরি এবং প্রশিক্ষণ
with strategy.scope():
    model = tf.keras.Sequential([
        tf.keras.layers.Dense(64, activation='relu', input_shape=(784,)),
        tf.keras.layers.Dense(10, activation='softmax')
    ])

    model.compile(optimizer='adam',
                  loss='sparse_categorical_crossentropy',
                  metrics=['accuracy'])

    # প্রশিক্ষণ শুরু করা
    model.fit(x_train, y_train, epochs=10)

১.২ কীভাবে কাজ করে:

MirroredStrategy স্বয়ংক্রিয়ভাবে আপনার ডেটা এবং মডেলটি একাধিক GPU তে ভাগ করে দেয় এবং প্রশিক্ষণ চালায়।
এই কৌশলে, প্রতিটি GPU ইনপুট ডেটার একটি ভাগ গ্রহণ করে এবং একটি প্যারামিটার আপডেট করে। এরপর, এগুলি all-reduce অ্যালগরিদম ব্যবহার করে একত্রিত হয়ে একটি সাধারণ মডেল আপডেট তৈরি করা হয়।
এটি মডেলের synchronous training নিশ্চিত করে, যেখানে প্রতিটি GPU একই প্যারামিটার আপডেটের জন্য কাজ করে।

২. MultiWorkerMirroredStrategy (Multiple Nodes)

MultiWorkerMirroredStrategy হল TensorFlow এর একটি শক্তিশালী কৌশল যা একাধিক মেশিন (nodes) এবং GPU ব্যবহার করে প্রশিক্ষণ করতে সহায়তা করে। এটি বিশেষভাবে distributed training এর জন্য ব্যবহৃত হয় এবং একাধিক মেশিনে মডেল প্রশিক্ষণ করে। এটি একাধিক মেশিনে প্রশিক্ষণের জন্য গঠনমূলক এবং synchronous training এর মাধ্যমে কাজ করে।

২.১ MultiWorkerMirroredStrategy কনফিগার করা

MultiWorkerMirroredStrategy ব্যবহার করার জন্য, প্রথমে আপনাকে ক্লাস্টার কনফিগারেশন করতে হবে, তারপর প্রতিটি মেশিন বা নোডে TensorFlow এর জন্য একটি worker সুনির্দিষ্ট করতে হবে।

import tensorflow as tf
import os

# ক্লাস্টার কনফিগারেশন
os.environ['TF_CONFIG'] = json.dumps({
    'cluster': {
        'worker': ['worker1_host:port', 'worker2_host:port', 'worker3_host:port']
    },
    'task': {'type': 'worker', 'index': 0}  # এই মেশিনটি 'worker0' হবে
})

# MultiWorkerMirroredStrategy এর ইনস্ট্যান্স তৈরি করা
strategy = tf.distribute.MultiWorkerMirroredStrategy()

print('Number of devices: {}'.format(strategy.num_replicas_in_sync))

# মডেল তৈরি এবং প্রশিক্ষণ
with strategy.scope():
    model = tf.keras.Sequential([
        tf.keras.layers.Dense(64, activation='relu', input_shape=(784,)),
        tf.keras.layers.Dense(10, activation='softmax')
    ])

    model.compile(optimizer='adam',
                  loss='sparse_categorical_crossentropy',
                  metrics=['accuracy'])

    # প্রশিক্ষণ শুরু করা
    model.fit(x_train, y_train, epochs=10)

২.২ কীভাবে কাজ করে:

MultiWorkerMirroredStrategy একাধিক মেশিনে কাজ করতে সক্ষম এবং data parallelism এ কাজ করে। প্রতিটি মেশিনের GPU একটি "replica" তৈরি করে এবং একসাথে প্রশিক্ষণ করতে থাকে।
মডেল প্যারামিটারগুলি all-reduce কৌশলের মাধ্যমে একত্রিত হয় এবং একই প্যারামিটার আপডেট হয় সমস্ত মেশিনের জন্য।
একাধিক worker বা মেশিনের মধ্যে synchronous প্রশিক্ষণ নিশ্চিত করা হয়।
আপনি TF_CONFIG পরিবেশের মাধ্যমে cluster configuration সেট করতে পারেন, যেখানে একাধিক worker এবং তাদের এক্সিকিউশন কনফিগারেশন দেওয়া থাকে।

৩. Distributed Training এর জন্য TensorFlow কনফিগারেশন

Distributed training কনফিগারেশনের জন্য, আপনাকে নিচের বিষয়গুলির প্রতি মনোযোগ দিতে হবে:

TF_CONFIG: এটি TensorFlow ক্লাস্টারের পরিবেশের কনফিগারেশন যা প্রতিটি নোডের worker এবং অন্যান্য প্যারামিটার সুনির্দিষ্ট করে।
Worker Indexing: প্রতিটি worker এর জন্য একটি index থাকতে হবে, যা নির্দেশ করে সে কোন নোডে থাকবে এবং প্রশিক্ষণ প্রক্রিয়ায় তার ভূমিকা কী।
Cluster Configuration: সমস্ত ক্লাস্টারের worker গুলির পোর্ট এবং হোস্ট নাম দেয়া হয়, যাতে সমস্ত worker একে অপরের সাথে যোগাযোগ করতে পারে।

৪. Multi-node Training এর সুবিধা:

পারফরম্যান্স বৃদ্ধি: একাধিক GPU বা মেশিন ব্যবহার করে প্রশিক্ষণ পারফরম্যান্স উল্লেখযোগ্যভাবে বৃদ্ধি পায়, বিশেষত বৃহৎ ডেটাসেট এবং মডেলগুলির ক্ষেত্রে।
স্কেলেবিলিটি: Multi-node training মডেল প্রশিক্ষণ প্রক্রিয়াকে বড় এবং জটিল ডেটাসেটে স্কেল করতে সক্ষম করে, যা একক GPU বা CPU দিয়ে সম্ভব নয়।
প্রশিক্ষণ সময় হ্রাস: প্রশিক্ষণ দ্রুততর হয় কারণ একাধিক নোড সমান্তরালে প্রশিক্ষণ প্রক্রিয়া পরিচালনা করে।

৫. কিছু বিষয় লক্ষ্য রাখতে হবে:

Data Parallelism: প্রশিক্ষণের জন্য ডেটা সমানভাবে বিভিন্ন worker গুলিতে ভাগ করা উচিত। এটি সঠিকভাবে কাজ করতে হলে ডেটা পিপলাইনের সঠিক কনফিগারেশন নিশ্চিত করতে হবে।
রিসোর্স কনফিগারেশন: একাধিক GPU বা মেশিনের মধ্যে সংস্থান ভাগাভাগি করতে হলে সেই অনুযায়ী রিসোর্স কনফিগারেশন এবং মেমরি ব্যবস্থাপনা নিশ্চিত করতে হবে।
Error Handling: Multi-node training এ error handling এবং synchronization এর বিষয়গুলো ঠিকমতো পরিচালনা করতে হবে, যাতে প্রশিক্ষণ প্রক্রিয়া সঠিকভাবে চলে।

সারাংশ

Keras এবং TensorFlow তে multi-node training কনফিগারেশন সহজেই সম্ভব। MirroredStrategy এবং MultiWorkerMirroredStrategy TensorFlow এর প্রধান কৌশল যা একাধিক GPU এবং মেশিনে প্রশিক্ষণ করতে সহায়তা করে। এর মাধ্যমে ডিস্ট্রিবিউটেড প্রশিক্ষণ সহজ এবং কার্যকরী হয়, বিশেষত বড় ডেটাসেট এবং জটিল মডেল প্রশিক্ষণের জন্য।

Content added By

SATT Academy

Large-scale Model Training Techniques

206

বড় মাপের মডেল ট্রেনিং একটি চ্যালেঞ্জিং কাজ, বিশেষত যখন মডেলগুলো বিশাল ডেটাসেট এবং অতিরিক্ত কম্পিউটেশনাল শক্তি চায়। ডীপ লার্নিং এবং মেশিন লার্নিং মডেলগুলোর প্রশিক্ষণ দ্রুত করার জন্য বিভিন্ন প্রযুক্তি এবং কৌশল ব্যবহার করা হয়। নিচে কিছু গুরুত্বপূর্ণ Large-scale Model Training Techniques বাংলায় আলোচনা করা হলো।

১. ডেটা প্যারালেলিজম (Data Parallelism)

ডেটা প্যারালেলিজম হল একটি কৌশল যেখানে ডেটাসেটকে ছোট ছোট মিনি-ব্যাচে ভাগ করা হয় এবং বিভিন্ন ডিভাইসে (যেমন GPU বা TPU) একযোগে প্রক্রিয়া করা হয়। প্রতিটি ডিভাইস একটি ডেটার অংশ নিয়ে কাজ করে এবং পরবর্তীতে তাদের গ্রীডিয়েন্টগুলি একত্রিত করে মডেল প্যারামিটার আপডেট করা হয়।

কিভাবে কাজ করে:
- ডেটাসেটকে ছোট ছোট অংশে ভাগ করা হয়।
- প্রতিটি অংশ আলাদা ডিভাইসে প্রক্রিয়া করা হয়।
- গ্রীডিয়েন্টগুলো সমন্বয় করে প্যারামিটার আপডেট করা হয়।
প্রযুক্তি:
- Horovod এবং NCCL (NVIDIA Collective Communications Library) দিয়ে মডেল ট্রেনিং পারফরম্যান্স বৃদ্ধি করা হয়।
সুবিধা:
- মডেল ট্রেনিং দ্রুত হয় কারণ একাধিক ডিভাইস ব্যবহার করা হয়।
- বড় ডেটাসেটের জন্য খুবই কার্যকরী।
অসুবিধা:
- গ্রীডিয়েন্ট সিঙ্ক্রোনাইজেশনের জন্য অতিরিক্ত যোগাযোগের প্রয়োজন।

২. মডেল প্যারালেলিজম (Model Parallelism)

মডেল প্যারালেলিজম হল একটি কৌশল যেখানে মডেলকে ছোট ছোট অংশে ভাগ করা হয় এবং এই অংশগুলো আলাদা ডিভাইসে ট্রেনিং করা হয়। এই কৌশলটি তখনই ব্যবহার করা হয় যখন মডেলটি খুব বড় হয়ে যায় এবং একটি ডিভাইসে সেটি ধারণ করা সম্ভব হয় না।

কিভাবে কাজ করে:
- মডেলকে ভেঙে ছোট ছোট অংশে ভাগ করা হয়।
- প্রতিটি অংশ আলাদা ডিভাইসে প্রক্রিয়া করা হয় এবং পরবর্তীতে তাদের আউটপুট একত্রিত করা হয়।
প্রযুক্তি:
- TensorFlow এবং PyTorch এ মডেল প্যারালেলিজম সমর্থন করা হয়।
সুবিধা:
- বড় মডেল ট্রেনিং করা সম্ভব হয়, যা একক ডিভাইসে ট্রেনিং করা সম্ভব ছিল না।
অসুবিধা:
- ডিভাইসগুলোর মধ্যে যোগাযোগের জন্য সময় এবং রিসোর্স খরচ হতে পারে।

৩. মিশ্র সঠিকতা প্রশিক্ষণ (Mixed Precision Training)

মিশ্র সঠিকতা প্রশিক্ষণ হল একটি কৌশল, যেখানে গণনা এবং মডেল প্যারামিটার আপডেটের জন্য ফ্লোট ১৬ (float16) ব্যবহার করা হয়, কিন্তু মডেল প্যারামিটারগুলি ফ্লোট ৩২ (float32) এ সংরক্ষিত থাকে। এটি প্রশিক্ষণের গতি বাড়াতে এবং মেমরি ব্যবহারে সাশ্রয় করতে সাহায্য করে।

কিভাবে কাজ করে:
- ফ্লোট ১৬ ব্যবহৃত হয় ফরওয়ার্ড এবং ব্যাকওয়ার্ড পাসের সময়, কিন্তু মডেল প্যারামিটার ফ্লোট ৩২ তে সংরক্ষিত থাকে।
- এটি জিপিইউ-এর জন্য অপটিমাইজ করা হয়েছে যাতে গতি বৃদ্ধি পায় এবং মেমরি কমে।
প্রযুক্তি:
- NVIDIA Apex এবং TensorFlow mixed precision API।
সুবিধা:
- মেমরি সাশ্রয় হয়।
- প্রশিক্ষণ দ্রুততর হয় এবং কম্পিউটেশনাল রিসোর্সের সাশ্রয় হয়।
অসুবিধা:
- সঠিকভাবে প্রয়োগ করা না হলে, সংখ্যার সঠিকতা হারাতে পারে।

৪. গ্রেডিয়েন্ট অ্যাকুমুলেশন (Gradient Accumulation)

গ্রেডিয়েন্ট অ্যাকুমুলেশন হল একটি কৌশল যেখানে ব্যাচ সাইজ খুব বড় হলেও, প্রশিক্ষণের সময় ছোট ছোট ব্যাচ ব্যবহার করা হয় এবং তাদের গ্রেডিয়েন্টগুলি অ্যাকুমুলেট করা হয়। তারপর একযোগে আপডেট করা হয়।

কিভাবে কাজ করে:
- বড় ব্যাচের জন্য ছোট ছোট ব্যাচ ব্যবহার করা হয়।
- ছোট ব্যাচে গ্রেডিয়েন্ট সংগ্রহ করা হয় এবং তারপর একযোগে প্যারামিটার আপডেট করা হয়।
সুবিধা:
- বড় ব্যাচ সাইজ ব্যবহারের সুবিধা পাওয়া যায়, যা মেমরি ব্যবহারের জন্য উপকারী।
- কম্পিউটেশনাল রিসোর্সের সাশ্রয় হয়।
অসুবিধা:
- প্রশিক্ষণ সময় অনেকটা বেশি হতে পারে।

৫. এস্যিনক্রোনাস গ্র্যাডিয়েন্ট ডিসেন্ট (Asynchronous Gradient Descent)

এস্যিনক্রোনাস গ্র্যাডিয়েন্ট ডিসেন্ট হল একটি পদ্ধতি যেখানে একাধিক ডিভাইস বা নোড একে অপর থেকে স্বাধীনভাবে গ্রীডিয়েন্ট হিসাব করে, এবং তাদের গ্রেডিয়েন্টকে একত্রিত করা হয়। এটি parameter servers ব্যবহার করে একাধিক নোডের মধ্যে গ্র্যাডিয়েন্টগুলি সিঙ্ক্রোনাইজ করা হয়।

কিভাবে কাজ করে:
- একাধিক ডিভাইস বা নোড একে অপর থেকে স্বাধীনভাবে কাজ করে এবং তাদের গ্রীডিয়েন্টকে প্যারামিটার সার্ভারে পাঠানো হয়।
- একে অপরের অপেক্ষা না করে প্রশিক্ষণ চলতে থাকে।
প্রযুক্তি:
- TensorFlow Parameter Server।
- Horovod।
সুবিধা:
- দ্রুত প্রশিক্ষণ পাওয়া যায়।
- বড় সংখ্যক নোডে একযোগে প্রশিক্ষণ চালানো যায়।
অসুবিধা:
- গ্রেডিয়েন্টের staleness বা পুরনো তথ্যের ব্যবহার হতে পারে, যা প্রশিক্ষণকে কম দক্ষ করে তুলতে পারে।

৬. ডেটা শার্ডিং এবং প্যারালেলিজম (Data Sharding and Parallelism)

ডেটা শার্ডিং হল একটি পদ্ধতি যেখানে ডেটাসেটটি ছোট ছোট ভাগে বিভক্ত করা হয় এবং প্রতিটি ডিভাইসে আলাদাভাবে কাজ করা হয়। এটি ডিস্ট্রিবিউটেড ট্রেনিং এবং ডেটা প্রক্রিয়াকরণের জন্য খুবই কার্যকরী।

কিভাবে কাজ করে:
- ডেটাসেটকে ছোট ছোট ভাগে বিভক্ত করা হয়।
- প্রতিটি ভাগ আলাদা ডিভাইসে ট্রেনিং করা হয় এবং পরে ফলাফলগুলো একত্রিত করা হয়।
প্রযুক্তি:
- Apache Spark এবং TensorFlow distributed।
সুবিধা:
- বড় ডেটাসেটগুলোর জন্য খুবই কার্যকরী।
- প্রশিক্ষণ দ্রুততর করা যায়।
অসুবিধা:
- ডেটা শার্ডিং ও সিঙ্ক্রোনাইজেশন প্রক্রিয়াটি কিছুটা জটিল হতে পারে।

৭. নলেজ ডিস্টিলেশন (Knowledge Distillation)

নলেজ ডিস্টিলেশন হল একটি কৌশল যেখানে বড় মডেল (teacher) এর থেকে ছোট মডেল (student) শেখার চেষ্টা করে। ছোট মডেলটি বড় মডেলটির আচরণ এবং সিদ্ধান্ত অনুসরণ করে, কিন্তু কম পারামিটার এবং কম মেমরি ব্যবহার করে।

কিভাবে কাজ করে:
- একটি বড় মডেল (teacher) প্রশিক্ষিত হয় এবং তার ফলাফল ছোট মডেল (student) এর মধ্যে ডিস্টিল করা হয়।
- ছোট মডেলটি কম ব্যয়সাধ্য এবং দ্রুত কাজ করে, কিন্তু বড় মডেলের মতো ফলাফল দেয়।
প্রযুক্তি:
- DistilBERT এবং TinyBERT।
সুবিধা:
- ছোট এবং দ্রুত মডেল তৈরি করা যায়।
- মডেলটি কম মেমরি এবং কম কম্পিউটেশনাল শক্তি ব্যবহার করে।
অসুবিধা:
- ছোট মডেলটি বড় মডেলের পরিপূর্ণ পারফরম্যান্স অর্জন নাও করতে পারে।

সারাংশ

বড় মাপের মডেল ট্রেনিং এর জন্য ডেটা প্যারালেলিজম, মডেল প্যারালেলিজম, মিশ্র সঠিকতা প্রশিক্ষণ, গ্রেডিয়েন্ট অ্যাকুমুলেশন, এস্যিনক্রোনাস গ্র্যাডিয়েন্ট ডিসেন্ট ইত্যাদি কৌশলগুলি ব্যবহৃত হয়। এছাড়া, নলেজ ডিস্টিলেশন এবং ডেটা শার্ডিং এই প্রক্রিয়াকে আরও দ্রুত এবং দক্ষ করতে সাহায্য করে।

Content added By

SATT Academy

Keras পরিচিতি Keras ইনস্টলেশন এবং সেটআপ Keras এর মৌলিক ধারণা Keras তে বেসিক Neural Network তৈরি Data Preprocessing এবং Augmentation

Multi-GPU এবং Distributed Training

১. Multi-GPU Training

Multi-GPU Training এর মূল ধারণা:

Keras ও TensorFlow এ Multi-GPU Training:

Multi-GPU Training এর সুবিধা:

২. Distributed Training

Distributed Training এর মূল ধারণা:

TensorFlow এ Distributed Training:

Distributed Training এর সুবিধা:

৩. Multi-GPU এবং Distributed Training এর মধ্যে পার্থক্য

সারাংশ

Multi-GPU Support কনফিগার করা

Multi-GPU কনফিগারেশন টুল: TensorFlow MirroredStrategy

১. MirroredStrategy ব্যবহারের জন্য প্রস্তুতি:

২. MirroredStrategy ব্যবহার করে Multi-GPU কনফিগারেশন:

কোডের ব্যাখ্যা:

৩. Multiple GPUs তে মডেল প্রশিক্ষণ:

৪. GPU Allocation কনফিগারেশন (Optional):

৫. কিছু গুরুত্বপূর্ণ বিষয়:

সারাংশ

Data Parallelism এবং Model Parallelism

1. Data Parallelism

Data Parallelism এর মূল ধারণা:

Data Parallelism এর উদাহরণ:

Data Parallelism এর সুবিধা:

Data Parallelism এর সীমাবদ্ধতা:

2. Model Parallelism

Model Parallelism এর মূল ধারণা:

Model Parallelism এর উদাহরণ:

Model Parallelism এর সুবিধা:

Model Parallelism এর সীমাবদ্ধতা:

Data Parallelism vs Model Parallelism

সারাংশ

Keras তে Multi-node Training কনফিগার করা

১. MirroredStrategy (Single-node, Multiple GPU)

১.১ MirroredStrategy কনফিগার করা

১.২ কীভাবে কাজ করে:

২. MultiWorkerMirroredStrategy (Multiple Nodes)

২.১ MultiWorkerMirroredStrategy কনফিগার করা

২.২ কীভাবে কাজ করে:

৩. Distributed Training এর জন্য TensorFlow কনফিগারেশন

৪. Multi-node Training এর সুবিধা:

৫. কিছু বিষয় লক্ষ্য রাখতে হবে:

সারাংশ

Large-scale Model Training Techniques

১. ডেটা প্যারালেলিজম (Data Parallelism)

২. মডেল প্যারালেলিজম (Model Parallelism)

৩. মিশ্র সঠিকতা প্রশিক্ষণ (Mixed Precision Training)

৪. গ্রেডিয়েন্ট অ্যাকুমুলেশন (Gradient Accumulation)

৫. এস্যিনক্রোনাস গ্র্যাডিয়েন্ট ডিসেন্ট (Asynchronous Gradient Descent)

৬. ডেটা শার্ডিং এবং প্যারালেলিজম (Data Sharding and Parallelism)

৭. নলেজ ডিস্টিলেশন (Knowledge Distillation)

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!